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摘 要 : [目的 /意义 ] 探 完 科学 


数据 开放 共享 中 的 数据 质量 问题 及 其 治理 对 策 ,以 便 促 进 科学 数据 开放 共享 的 有 效 实施 。 


[方法 “过程 ] 运 用 规范 分 析 法 和 因果 分 析 法 ,分 析 当 前 科学 数据 开放 共享 中 的 数据 质量 问题 和 引发 问题 的 根本 原 
因 ,构建 科学 数据 开放 共享 数据 质量 治理 模型 ,并 从 诱因 入 手提 出 4 类 治理 对 策 。[ 结果 /结论 ] 科学 数据 开放 共 
享 中 的 数据 质量 问题 涉及 科学 数据 的 准确 性 、 完 整 性 一致 性 、 及 时 性 、 可 靠 性 、 关 联 性 、 开 放 可 访问 性 。 可 以 从 政 
策 法 规 、 组 织 管理 .技术 与 平台 、 利 益 相关 者 4 个 方面 制定 科学 数据 质量 治理 对 策 , 从 而 解决 相关 科学 数据 质量 问 


题 ,进一步 推动 科学 数据 开放 共享 的 实施 。 
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治理 对 策 


全 开放 数据 作为 数字 时 代 的 社会 资本 ,已 经 成 为 扒 
动 社会 经 济 发 展 的 重要 因素 。 而 数据 质量 成 为 影响 
形 到 数据 及 其 共享 效果 的 关键 , 越 来 越 受 到 人 们 的 高 
度 视 。 国 际 标准 化 组 织 (International Organization for 
Sndardization ,简称 ISO) 制定 了 ISO 8000 数据 质量 标 
准 , 数 力 于 从 数据 质量 活动 .数据 质量 原则 .数据 质量 
特征 等 角度 管理 数据 质量 。《 G8 开放 数据 宪章 》 宣 
洛 涯 及 时 全面 ,准确 地 发 布 高 质量 的 开放 数据 ,满足 
最 语 标 准 的 开放 数据 质量 要 求 "I 。2018 年 我 国 实施 
的 K 科 学 数据 管理 办 法 ) 明 确 要 求 “按照 有 关 标准 规范 
进 登科 学 数据 采集 生产 ,加工 整理 和 长 期 保存 ,确保 数 
据 质量 “法 人 单位 应 建立 科学 数据 质量 控制 体系 , 保 
证 数据 的 准确 性 和 可 用 性 "中 。 事 实 上 ,高 质量 的 科学 
数据 既是 科学 研究 的 基础 ,也 是 科学 研究 的 驱动 力 吕 ， 
还 是 成 功 的 基本 要 素 " 1。 然而 ,数据 质量 障碍 已 成 为 
目前 科学 数据 开放 共享 中 的 一 个 主要 问题 ”-"。 依 据 
数据 仓储 研究 所 (The Data Warehousing Institute ) 的 观 
点 ,数据 质量 问题 的 成 本 每 年 超过 6 000 亿美 元 ”。 
虽然 已 有 一 些 文献 探讨 了 数据 质量 管理 问题 ,但 鲜 见 
论述 科学 数据 开放 共享 中 的 数据 质量 治理 。 因 此 , 针 
对 目前 科学 数据 开放 共享 中 的 数据 质量 问题 ,应 该 加 
强 科学 数据 质量 治理 研究 ,以 便 进一步 推动 科学 数据 


开放 共享 、 开 放 研 究 与 开放 创新 。 


1 科学 数据 开放 共享 中 的 数据 质量 问 
及 其 缘由 


了 解 科 学 数据 开放 共享 中 的 数据 质量 问题 及 其 缘 
由 是 实施 科学 数据 质量 治理 的 前 提 。 
1.1 科学 数据 开放 共享 中 的 数据 质量 问题 

数据 质量 是 指数 据 在 使 用 过 程 中 满足 特定 目的 需 
求 的 程度 ”。 数 据 质量 维度 衡量 数据 在 某 一 方面 的 
性 质 ,可 以 为 数据 质量 的 业务 需求 提供 框架 ,便于 对 质 
量 进行 量化 上 度量" 。 数 据 质 量 属性 有 多 种 多 样 ,包括 
可 访问 性 ,准确 性 现实 性 ,可 用 性 、 可 信 性 .明确 性 , 完 
整 性 综合 性 一致 性 .正确 性 、 及 时 性 、 易 用 性 、 灵 活 
性 \ 互 用 性 、 可 解释 性 .易学 性 、 精 确 性 .不 重复 、 客 观 
性 .元 余 度 .关联 性 安全 性 .时事 性 、 可 追踪 性 .效用 
性 有效 性 .价值 性 等 "”。《 国 际 标准 化 组 织 / 国 际 电 
工 委员 会 (ISO/IEC)25012》 标 准将 数据 质量 属性 分 为 
三 类 .内 在 数据 质量 属性 ,包括 准确 性 、 完 整 性 、 
一 致 性 .可 信 性 .即时 性 ;@@ 系 统 相关 数据 质量 属性 , 包 
括 有 效 性 可 携带 性 可 恢复 性 ;@@ 内 在 的 与 系统 相关 
的 数据 质量 属性 ,包括 可 访问 性 .兼容 性 .机 密 性 效率 


题 


国 | 


* 本 文系 国家 社会 科学 基金 项 目 “ 开放 科学 环境 下 的 科学 数据 开放 共享 机 制 与 对 策 研究 ”( 项 目 编号 :18ATQ007 ) 研究 成 果 之 一 。 
作者 简介 : 盛 小 平 (ORCID :0000 -0002 -6341 -6973 ) ,教授 ,博士 ,博士 生 导 师 ,E-mail:shengxp68@126. com; 田 婧 (ORCID :0000 - 0002 -3760 


一 5308 ) ,硕士 研究 生 ; 向 桂林 (ORCID :0000 -0002 -0880 -8106 ) , 副 存 


| 元 唱 贝 


分 Yh 已 


ij 精 击 。 


收 稿 日 期 :2020 -06 -09 修 回 日 期 :2020 -07 -21 本 文 起 止 页 码 :11 -24 本 文责 任 编辑 : 易 飞 


11 


团 定 情报 三 作 


第 64 卷 第 22 期 2020 年 11 月 


ChinaXiv 合 作 期 刊 


性 、 精 确 性 .可 追溯 性 、 可 理解 性 。 任 何 组 织 都 必须 重 
视 数据 质量 ,这 是 因为 高 质量 数据 既是 有 价值 的 资产 ， 
可 以 成 为 战略 性 的 竞争 优势 ,也 能 提高 客户 满意 度 ,还 
能 增加 收入 和 利润 。 与 此 相反 ,未 经 识别 和 纠正 的 
糟糕 质量 的 数据 可 能 对 组 织 产 生 重大 的 负 作 用 ,比如 ， 
降低 客户 满意 度 ,降低 决策 过 程 效率 ,降低 绩效 ,降低 
雇员 工作 满意 度 , 增 加 运营 成 本 ,对 数据 失去 信任 ,对 
组 织 文化 产生 负面 影响 等 。 

国外 学 者 认为 ,为 了 满足 预期 的 使 用 ,数据 必须 具 
有 准确 性 、 及 时 性 、 相 关 性 完整 性 、 可 信 性 和 可 理解 
性 "一 般 科学 数据 质量 问题 通常 涉及 数据 的 准确 
性 ,完整 性 一 致 性 .及 时 性 .可 靠 性 .关联 性 等 ”。 其 
中 ,数据 准确 性 是 指数 据 正确 、 可 靠 、 无 误 ;数据 完整 性 
0 


数据 一 致 性 是 指数 据 总 是 以 相同 的 格式 显示 ,并 且 与 
以 前 的 数据 兼容 ;数据 及 时 性 是 指数 据 的 新 旧 适 合 于 
当前 任务 ;数据 可 靠 性 是 指数 据 能 够 传达 正确 的 信息 ， 
是 可 信赖 的 或 可 信任 的 ;数据 关联 性 是 指数 据 对 当前 
任务 是 适用 的 和 有 用 的 。 

上 述 数 据 质量 问题 同样 可 出 现在 科学 数据 开放 共 
享 活动 中 ,因为 开放 科学 数据 必须 保障 数据 的 准确 性 、 
完整 性 一致 性 及 时 性 .可靠 性 .关联 性 。 除 此 之 外 ， 
开放 科学 数据 质量 问题 还 涉及 数据 的 开放 可 访问 
性 1。 它 是 指数 据 是 容易 利用 和 快速 检索 ,并 且 能 够 
以 公开 免费 或 开放 获取 的 方式 得 到 发 布 与 传播 。 按 
照 上 述 7 类 数据 属性 ,可 以 进一步 描述 科学 数据 开放 
共享 可 能 遇 到 的 各 种 数据 质量 问题 如 表 1 所 示 : 


五 


表 1 科学 数据 开放 共享 中 的 数据 质量 问题 一 览 


ts ee ag 文献 来 源 数据 属性 问题 分 类 et th 文献 来 源 
Gt 性 问题 数据 模糊 或 错误 [19 -21] 开放 可 访问 性 问题 缺少 机 器 可 读 格式 [19,25] 
SO 字 序 或 内 容错 误 [19,22 -23] 数据 无 法 下 载 [19] 
< 数据 污染 [24] 有 限 的 检索 能 力 [41] 
全 数据 或 数据 集 碎片 化 [8,25 -26] 缺少 开放 共享 平台 [8,39] 
编码 不 准确 [19,21,27] 数据 软件 不 兼容 [8,39] 
© 数据 输入 错误 [19,27] 数据 开放 程度 较 低 [42] 
A 数据 更 新 /传输 /分 类 错误 [20] 不 能 访问 原始 数据 ,只 能 访问 处 理 后 的 数据 [8] 
~ 三 元 组 抽取 错误 [28] 获取 开放 知识 库存 储 的 原始 数据 困难 [43] 
S< 数据 类 型 抽取 不 正确 [28] 缺少 开放 数据 质量 标准 [44] 
时 语法 错误 [29 -30] 
加 宛 余 实例 [29] 
CS 引用 不 正确 [27,31] 
《5 致 性 站 是 数据 不 一 致 [22 ,32] 完整 性 问题 数据 不 完整 [8,22,45 ,39] 
数据 结构 不 一 致 [27,33] 缺少 数据 质量 信息 [25] 
数据 格式 不 一 致 [8,19,21-22, 缺少 元 数据 [7,25 ,39 ,46 -47] 
25 ,27 ,33 -34] 
数据 标准 不 一 至 [33 -34] 缺少 数据 索引 [39] 
抽取 出 的 信息 不 相关 [28] 缺少 数据 值 [19,22] 
虚假 或 错误 的 注释 [35] 
数据 重复 [22,36 -37] 
可 靠 性 问题 无 用 或 无 关 的 数据 [20 ,31] 关联 性 问题 缺少 数据 链接 [28,37] 
缺少 许可 [28 数据 关联 错误 [7,28,37] 
不 明晰 的 所 有 权 [38 死 链 接 . 断 开 的 链接 和 [48] 
不 可 引用 的 坏 链接 
不 正确 或 不 完整 的 属性 值 [29 存在 大 量 的 信息 孤岛 [36] 
未 知 的 数据 位 置 [38 
及 时 性 问题 数据 及 时 性 差 [19,25 ,39] 
数据 时 效 性 变 短 [40 
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1.2 ”科学 数据 开放 共享 中 数据 质量 问题 的 缘由 分 析 

通常 情况 下 ,手工 数据 输入 .初始 数据 转换 、 系 统 
整合 .数据 处 理 、 数 据 清理 ,数据 净化 、 系 统 更 新 .新 数 
据 使 用 流程 自动 化 等 环节 或 因素 都 可 影响 数据 质 
量 '”。 在 科学 数据 开放 共享 过 程 中 ,引发 数据 质量 问 
质 的 根本 原因 主要 包括 如 下 4 个 方面 : 
1.2.1 政策 法 规 因 素 

有 效 的 科学 数据 管理 政策 与 法 规 是 高 质量 科学 数 
据 的 根本 保障 ,这 是 因为 它们 对 开放 科学 数据 管理 具 
有 规范 与 指导 作用 ,而 且 可 以 明确 利益 相关 者 在 科学 
数据 管理 中 的 权利 与 义务 以 及 风险 和 合 规 问题 i。 
虽然 目前 我 国 已 经 颁布 了 《科学 数据 管理 办 法 》, 但 是 
并 没有 建立 科学 数据 质量 控制 体系 来 对 数据 质量 进行 
大 量 ,也 没有 建立 健全 科学 数据 或 个 人 数据 保护 法 律 
体 绎 来 为 创建 ,共享 与 利用 高 质量 的 科学 数据 提供 法 
律 保障 。《 中 国 科学 院 科 学 数据 管理 与 开放 共享 办 
清 了 宁 以 用 来 指导 与 规范 中 国 科学 院 系 统 内 成 员 单 位 
与 有 人 的 科学 数据 管理 与 开放 共享 行为 ,但 很 少 有 其 
他 林 构 制定 类 似 的 科学 数据 管理 实施 细则 来 提升 科学 


隐 国 


将 所 质量 管理 水 平 。 现 行 的 政府 信息 公开 条 例 》 没 
有 效 区 分 与 界定 开放 政府 数据 中 的 科学 数据 类 型 及 
其 艳 量 要 求 ,势必 会 对 开放 政府 科学 数据 质量 造成 影 
| 
响 。。 


组 织 管理 因素 
年 多 人 认为 大 多 数 数据 质量 问题 是 由 数据 输入 错 
误 名 起 的 ,然而 ,实际 上 许多 数据 质量 问题 是 由 于 缺乏 
对 喜 质 量 数据 的 组 织 承诺 造成 的 ,而 后 者 本 身 源 于 治 
理 征管 理 领 导 力 的 缺乏 ”1 ,包括 缺乏 开放 科学 数据 质 
量 管理 的 统一 领导 与 部 门 协调 ,缺少 有 效 的 开放 科学 
数据 质量 管理 制度 ,没有 建立 科学 数据 质量 管理 计划 
与 流程 ,缺少 开放 科学 数据 质量 标准 ,缺乏 有 效 的 激励 
机 制 ,在 数据 生产 者 和 管理 者 之 间 缺 少 互惠 机 制 ,没有 
建立 数据 质量 治理 的 组 织 .制度 ,标准 和 技术 手段 ” ， 
以 及 陈旧 的 业务 规则 ,执行 不 一 致 的 业务 流程 ,缺乏 数 
据 操作 流程 知识 的 培训 2” ,缺少 质量 管理 的 组 织 
化 "等 ,所 有 这 些 都 有 可 能 引起 开放 科学 数据 质量 问 
题 。 
1.2.3 ”技术 与 平台 因素 

高 质量 的 开放 科学 数据 既 依赖 于 组 织 文化 ,也 依 
赖 于 信息 技术 与 共享 平台 的 支撑 与 有 效 利 用 ,特别 是 
在 科学 数据 提交 、 存 储 、 分 享 .使 用 和 维护 等 环节 上 。 
然而 ,在 目前 科学 数据 开放 共享 过 程 中 ,常常 存在 诸多 
技术 与 平台 问题 ,比如 :数据 输入 接口 没有 编辑 或 控制 


功能 来 防止 不 正确 的 数据 被 存 人 系统 中 ,数据 接口 没 
有 升级 以 适应 新 业务 流程 变化 的 需求 ,为 不 同 的 业务 
目的 重复 使 用 字段 而 不 是 改变 数据 模型 和 用 户 界 面 或 
代码 , 源 系统 可 能 在 没有 告知 下 游 消 费 者 或 说 明 变 更 
情况 下 更 改 数据 结构 ,未 能 执行 引用 完整 性 或 关闭 验 
证 ,未 能 对 实例 唯一 性 进行 足够 的 检查 或 者 关闭 了 数 
据 库 中 的 唯一 约束 ,编码 不 准确 和 空白 ,数据 模型 不 准 
确 , 时 间 数 据 不 匹配 ,数据 修复 中 故意 输入 错误 数据 或 
安全 漏洞 ” ,提供 的 数据 格式 不 标准 ,新 旧 数 据 格式 
不 兼容 ,缺乏 元 数据 ,缺乏 数据 标准 化 技术 等 ” 。 这 
些 因 素 都 可 能 直接 导致 科学 数据 开放 共享 中 的 数据 质 
量 问 题 。 

1.2.4 利益 相关 者 因素 

不 同 的 利益 相关 者 ,如 政府 .研究 人 员 、 研 究 机 构 、 
数据 中 心 图书 情 报 机 构 、 资 助 机 构 、 出 版 社 、 数 据 专业 
人 员 等 ,分 别 在 数据 质量 管理 过 程 中 扮演 不 同 角 色 、 发 
挥 不 同 作用 。 

(1) 政 府 。 政 府 通过 颁布 相关 法 律 法 规制 定 科 
学 数据 质量 标准 或 管理 条 例 , 可 以 在 全 国 或 本 地 区 确 
保科 学 数据 质量 。 换 名 话说 , 若 政府 在 科学 数据 质量 
管理 方面 不 作为 ,那么 不 可 能 在 全 国 或 本 地 区 营造 良 
好 的 科学 数据 质量 政策 环境 ,更 不 能 阻止 各 种 损害 科 
学 数据 质量 行为 的 发 生 。 

(2) 研 究 人 员 和 研究 机 构 。 研 究 人 员 和 研究 机 构 
如 何 看 待 科学 数据 质量 问题 ,是 否 拥有 科学 数据 质量 
意识 ,是 否 制 定 科学 数据 质量 管理 政策 .计划 或 策略 ， 
机 构 科 学 数据 质量 管理 政策 是 否 明确 了 利益 相关 者 的 
职责 和 义务 或 任务 ,是 否 在 实践 中 严格 遵循 科学 数据 
质量 标准 ,是 否 将 开放 获取 高 质量 的 科学 数据 作为 职 
业 发 展 的 正式 标准 ,都 将 直接 影响 研究 人 员 或 研究 机 
构 创 建 的 科学 数据 质量 ,同时 也 将 制约 他 们 能 否 为 科 
学 数据 的 高 效 利 用 提供 质量 保障 。 

(3) 数 据 中 心 和 图 书 情报 机 构 。 数 据 中 心 与 图 书 
情报 机 构 是 否 建 立 了 科学 数据 质量 保证 机 制 , 是 否 建 
立 了 高 质量 的 开放 科学 数据 知识 库 , 是 否 能 够 为 用 户 
提供 一 系列 高 质量 的 科学 数据 ,是 否 为 用 户 提供 科学 
数据 质量 管理 培训 或 科学 数据 质量 评价 服务 以 帮助 用 
户 提高 其 数据 质量 ,这 些 因 素 都 将 对 科学 数据 质量 产 
生 直 接 或 间接 的 影响 。 

(4) 资 助 机 构 。 资 助 机构 是 否 制定 优先 资助 政策 
来 保障 高 质量 科学 数据 的 开放 获取 与 保存 ,是 否 从 引 
领 开放 科学 范式 的 角度 提高 人 们 的 数据 质量 意识 并 提 
高 开放 科学 数据 质量 ,是 否 积极 促进 利益 相关 者 在 保 
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证 科学 数据 质量 方面 的 合作 ,都 会 对 科学 数据 质量 产 
生 积极 或 消极 作用 。 

(5) 出 版 社 。 出 版 社 是 否 制定 支持 高 质量 科学 数 
据 开放 出 版 的 强制 性 政策 ,是 否 提供 高 质量 的 开放 获 
取 期 刊 来 改善 学 术 交流 基础 设施 ,是 否 与 经 过 认证 的 
存储 库 和 数据 中 心 协 作 以 简化 数据 提交 ,是 否 通过 建 
立 同行 评审 制度 来 支持 科学 数据 作为 一 流 的 学 术 产 
出 ,是 否 制定 需要 关联 开放 引用 科学 数据 的 政策 ,是 否 
制定 鼓励 使 用 文本 与 数据 挖掘 的 许可 政策 ,都 将 正 向 
或 反 向 影响 科学 数据 质量 。 

(6) 数 据 专业 人 员 。 数 据 专业 人 员 的 成 功 参与 在 
很 大 程度 上 决定 了 科学 数据 质量 的 命运 。 他 们 凭借 其 
专业 技能 与 创造 性 和 系统 性 工作 ,如 模型 构建 ,规划 、 
问题 解决 快速 学 习 、 团 队 合作 、 适 应 性 和 灵活 性 ,注意 
强 罗 .研究 与 报告 .掌握 多 种 形式 的 大 数据 熟悉 尚未 
解 染 的 问题 等 ” ,可 以 在 科学 数据 质量 管理 生命 周期 
叫 发 挥 独特 的 作用 ,从 而 有 效 提升 科学 数据 质量 或 为 
科学 数据 提供 质量 保证 。 

2 科学 数据 开放 共享 中 的 数据 质量 治理 
檬 章 的 构建 
已 出 保 高 质量 数据 是 


De 


R 


个 复杂 的 过 程 。 数 据 治理 是 
任 条 确保 数据 质量 工作 的 必要 组 成 部 分 ,具有 改进 数 
所 质量 的 潜力 ,在 保障 数据 质量 方面 起 着 非常 重要 的 
作 二 ,主要 包括 :@ 定 义 与 组 织 (如 企业 ) 数据 的 使 用 
和 钧 理 相关 的 决策 权力 和 职责 ”' ,有 助 于 更 好 地 实施 
决策 和 保护 利益 相关 者 需求 ;加 能 为 组 织 范 围 内 或 全 
球 急 围 内 的 数据 处 理 制定 和 实施 数据 质量 管理 规程 、 
指南 和 路 线 图 ;@ 迫 使 组 织 建设 数据 质量 文化 ,促使 人 
们 更 广泛 地 思考 质量 和 重新 检查 他 们 的 日 常 实践 ; 
@ 对 组 织 中 数据 的 可 用 性 、 相 关 性 .使 用 性 .完整 性 和 
安全 性 等 进行 全 面 管理 ,使 数据 资产 价值 最 大 化 5 ; 
加 保证 数据 是 可 信 的 ,并 确保 低 质 量 数据 当事人 应 承 
担 相应 的 责任 。 因 此 ,数据 治理 是 解决 上 述 开放 科 
学 数据 质量 问题 的 重要 手段 。 

如 何 利用 数据 治理 来 确保 科学 数据 开放 共享 中 的 
数据 质量 ? 这 需要 构建 一 种 科学 .实用 的 数据 质量 治 
理 模型 。 这 里 以 科学 数据 开放 共享 中 的 数据 质量 问题 
为 导向 ,以 科学 数据 质量 治理 对 策 为 抓 手 , 建 立 如 图 1 
所 示 的 科学 数据 开放 共享 中 的 数据 质量 治理 模型 。 这 
种 治理 模型 的 核心 内 容 要素 包 括 如 下 3 个 方面 :@ 科 
学 数据 开放 共享 活动 。 科 学 数据 开放 共享 是 与 科学 数 


据 开 放生 产 、 组 织 、 发 布 (或 出 版 ) ,传播 ,利用 直接 相 
关 的 一 系列 价值 创造 活动 ,主要 包括 科学 数据 的 开放 
发 布 . 开 放 著 取 、 开 放 存 储 、 开 放 利用 。 而 这 些 科学 数 
据 开放 共享 活动 者 与 科学 数据 质量 有 关 , 需 要 采取 不 
同 的 数据 治理 措施 来 提升 数据 质量 。@ 科 学 数据 质量 
问题 。 模 型 以 科学 数据 开放 共享 中 的 数据 准确 性 、 完 
整 性 一 致 性 、 及 时 性 、 可 靠 性 .关联 性 、 开 放 可 访问 性 
作为 衡量 数据 质量 的 维度 ,并 以 这 些 维度 的 数据 质量 
问题 作为 数据 质量 治理 的 主要 目标 。@@) 科 学 数据 质量 
治理 措施 。 和 针对 科学 数据 开放 共享 中 的 主要 数据 质量 
问题 ,结合 产生 数据 质量 问题 的 4 类 缘由 ,分 别 从 政策 
法 规 . 组 织 管理 .技术 与 平台 利益 相关 者 4 个 方面 拟 
定 科学 数据 开放 共享 中 的 数据 质量 治理 措施 ,最 终 达 
到 实现 科学 数据 质量 治理 的 目的 。 


注 : A: 制定 (数据 质量 法 》 或 4 数据 质量 管理 条 例 》;B: 制 
定 《 开 放 政府 数据 法 》 等 相关 法 律 ;C: 修订 与 完善 4 科学 数据 管 
理 办 法 》 等 法 规 ;D: 制 定 科学 数据 质量 战略 ,明确 科学 数据 质量 
治理 重点 与 方向 ;E: 建立 健全 科学 数据 质量 治理 结构 ,明确 治 
理 主体 的 职责 与 作用 ;F: 制 定 科 学 数据 质量 治理 计划 ,明确 科学 
数据 质量 治理 路 径 ;G: 把 数据 剖析 般 入 科学 数据 质量 管理 流程 ; 
H: 实 施 科 学 数据 质量 审计 ,明确 数据 质量 治理 的 重点 领域 ;1: 构 
建 关联 开放 数据 ;J: 明 确 不 同 利 益 相关 者 的 科学 数据 质量 治理 
职责 与 作用 ;K: 建 立 利 益 相 关 者 科学 数据 质量 协同 治理 机 制 
图 1 科学 数据 开放 共享 中 的 数据 质量 治理 模型 


上 述 科学 数据 质量 治理 模型 的 运行 机 制 及 其 主要 
特点 包括 :中 以 科学 数据 质量 治理 为 “ 轴 ” ,以 科学 数 
据 质 量 治理 措施 为 “ 辐 ” ,以 各 种 科学 数据 属性 问题 为 
“内 罗 ”, 并 以 科学 数据 开放 共享 活动 (主要 是 开放 发 
布 . 开 放 获取 、 开 放 存 储 、 开 放 利 用 ) 为 “外 罗 ”, 形 成 科 
学 数据 开放 共享 中 的 数据 质量 治理 车 轮 模 型 。@) 通 过 
数据 质量 治理 车 轮 模型 及 其 车 轮 结构 关系 ,使 各 种 科 
学 数据 质量 问题 与 科学 数据 质量 治理 措施 融合 起 来 。 
例如 ,针对 科学 数据 开放 共享 中 的 数据 质量 问题 ,通过 
从 政策 法 规 上 采用 科学 数据 质量 治理 的 对 策 , 比 如 “ 制 
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定 (数据 质量 法 ) 或 (数据 质量 管理 条 例 》” ,可 以 为 解 
决 科学 数据 准确 性 ,完整 性 ,一 致 性 、 及 时 性 ,可 靠 性 、 
关联 性 、 开 放 可 访问 性 等 各 种 问题 提供 专门 的 法 律 支 
撑 。@ 通 过 数据 质量 治理 车 轮 模型 及 其 车 轮 结构 关 
系 ,使 科学 数据 开放 共享 活动 与 科学 数据 质量 问题 及 
其 治理 措施 融合 起 来 。 例 如 ,作为 一 种 科学 数据 开放 
共享 方式 ,科学 数据 开放 出 版 会 产生 包括 数据 准确 性 、 
完整 性 一 致 性 、 及 时 性 ,可靠 性 .关联 性 .开放 可 访问 
性 等 在 内 的 多 种 数据 质量 问题 。 要 解决 这 些 问题 , 需 
要 从 多 方面 ( 即 产生 数据 质量 问题 的 4 类 缘由 ) 而 非 单 
方面 采取 有 效 的 数据 治理 措施 。 这 也 适用 于 其 他 科学 
数据 开放 共享 活动 。@ 科 学 数据 开放 共享 中 的 数据 质 
量 治理 是 动态 变化 与 循环 发 展 的 。 正 如 车 轮 循环 运转 
方式 一 样 ,科学 数据 开放 共享 中 的 数据 质量 问题 与 数 
握 珊 量 治理 对 策 是 动态 变化 的 .循环 发 展 的 。 


二 科学 数据 开放 共享 中 的 数据 质量 治理 


村 基于 上 述 科学 数据 质量 治理 模型 ,可 以 从 政策 法 


量 治理 。 
政策 法 规 方面 的 治理 对 策 


保 限 。 这 方面 的 治理 对 策 包括 : 
3, 旋 ! 制定 (数据 质量 法 或 《数据 质量 管理 条 例 》， 
为 科学 数据 质量 治理 提供 专门 的 法 律 支撑 

“为 确保 美国 联邦 机 构 使 用 和 传播 准确 的 信息 ， 
2000 年 底 , 美 国 国会 批准 了 “数据 质量 法 ”( Data Quali- 
ty Act,DQA) 。DQA 要 求 联 邦 机 构 发 布 信 息 质量 指南 ， 
确保 他 们 传播 的 信息 的 质量 .实用 性 、 客 观 性 和 完整 
性 ,并 为 受 影响 的 人 提供 纠正 这 些 信息 的 机 制 *。 不 
过 ,DQA 仅仅 是 美国 政府 联邦 管理 机 构 内 部 的 管理 规 
范 ,并 不 具有 法 律 约束 力 和 强制 执行 力 ,也 不 能 作为 进 
行 任何 法 律 诉讼 的 依据 ” ,但 可 以 为 我 国 推进 数据 质 
量 立法 提供 借鉴 。 笔 者 在 2020 年 3 月 31 日 ,用 “数据 
质量 "作为 “标题 "检索 词 ,查询 “北大 法 宝 ”( https:// 
www. pkulaw. com/) 得 知 ,国内 共 出 台 了 32 份 加 强 数 
据 质 量 管理 的 部 门 规章 ,如 “国家 广播 电影 电视 总 局 关 
于 印发 《广播 影视 统计 数据 质量 管理 暂行 办 法 》 的 通 
知 ”“ 国 家 教育 委员 会 关于 进一步 提高 教育 统计 数据 
质量 的 意见 "等 ,但 缺少 专门 的 数据 质量 法 律 或 法 规 。 


从 规范 数据 资产 、 充 分 挖掘 数据 资产 潜能 和 发 挥 其 潜 
在 作用 以 及 尽 可 能 创造 最 大 的 社会 财富 来 看 ,我 国 应 
该 尽早 制定 《数据 质量 管理 条 例 》, 甚至 更 高 层次 的 
《数据 质量 法 》, 为 数据 质量 控制 与 治理 提供 法 律 文 
撑 。 
3.1.2 制定 4 开放 政府 数据 法 》 等 相关 法 律 ,为 科学 数 
据 质量 治理 提供 有 效 的 法 律 依据 

在 开放 社会 环境 下 ,开放 政府 数据 (包含 政府 生产 
或 资助 的 科学 数据 ,后 同 ) 成 为 许多 国家 提升 政府 治理 
能 力 的 重要 手段 。2014 年 5 月 9 日 ,美国 颁布 了 《2014 
年 数字 问 责 与 透明 法 》(Digital Accountability and 
Transparency Act of 2014 ,DATA ) ,后 简称 《“ 数 据 ” 法 》。 
该 法 的 主要 目的 是 ”:;Q@ 建 立 政府 范围 内 的 财务 数据 
标准 ,并 在 美国 政府 支出 网 站 (usaspend. gov) 或 显示 数 
据 的 后 续 系 统 上 为 纳税 人 和 决策 者 提供 一 致 .可 靠 和 
可 检索 的 政府 范围 内 的 支出 数据 ;@ 通 过 要 求 联 邦 机 
构 对 提交 的 数据 的 完整 性 和 准确 性 负责 来 提高 递交 交 
给 美国 政府 支出 网 站 的 数据 质量 。《“ 数 据 ” 法》 规定 
了 3 项 指令 :中 要 求 财政 部 .管理 和 预算 办 公 室 (OMB ) 
为 各 机 构 提交 的 所 有 联邦 支出 报告 创建 和 维护 标准 的 
数据 要 素 和 格式 ,并 指导 各 机 构 遵循 这 些 数据 标准 ; 
@) 指 示 财 政 部 和 OMB 以 统一 的 开放 数据 集 方式 汇编 
上 报 的 信息 ;@OOMB 必须 进行 一 项 试点 计划 ,以 测试 
对 接受 联邦 赠 款 和 合同 的 人 提交 的 报告 实施 数据 标准 
的 可 行 性 。 这 些 指令 的 实施 有 效 提 升 了 数据 质量 ,但 
仍 面临 技术 与 文化 方面 的 众多 挑战 ,如 一 些 机 构 可 能 
认为 4“ 数 据 ” 法》 是 一 种 官僚 主义 的 要 求 ,而 不 是 一 种 
真正 的 新 方法 ;公共 利益 群体 可 能 缺乏 使 用 ( “数据 ” 
法 》 指 定数 据 所 需 的 专业 知识 和 动机 等 ” 。 在 此 情况 
下 ,2019 年 1 月 14 日 ,美国 颁布 了 《开放 政府 数据 法 》 
(Open Government Data Act) ,作为 《 循 证 决策 基础 法 》 
( Foundations for Evidence Based Policymaking Acet ) 中 的 
第 二 部 分 《开放 政府 数据 法 》 要 求 联邦 政府 机 构 以 
默认 方式 将 政府 数据 公开 ,包括 制定 和 维护 战略 信息 
资源 管理 计划 (包含 开放 数据 计划 ) ;制定 .更 新 和 维 
护 全 面 的 数据 清单 和 联邦 数据 目录 ;设立 首席 数据 官 
(Chief Data Officer, CDO ) 和 首席 数据 官 委 员 会 ;开展 
报告 与 评估 等 ”。 这 些 措 施 为 确保 政府 数据 质量 及 
其 开放 共享 提供 了 法 律 保障 。 虽 然 政 府 数据 开放 共享 
已 被 纳入 我 国 的 大 数据 战略 ,最 近 新 修订 了 《中 华人 民 
共和 国政 府 信息 公开 条 例 》, 国 内 出 台 了 50 多 份 地 方 
政府 促进 政府 数据 开放 共享 的 政策 文件 ,如 《贵阳 市 政 
府 数据 共享 开放 条 例 》《 上 海 市 公共 数据 开放 暂行 办 
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法 ) 等 ,但 是 整体 上 我 国政 府 数据 开放 立法 还 处 于 起 步 
和 探索 阶段 ” ,特别 是 缺少 国家 层面 的 开放 政府 数据 
法 ,致使 数据 质量 保证 没有 在 国内 形成 统一 的 规范 ,也 
缺少 有 效 的 法 律 支 撑 。 因 此 ,我国 应 该 借鉴 国外 成 功 
经 验 ,推进 专门 的 开放 政府 数据 立法 ,明确 政府 数据 开 
放 的 范围 ,质量 和 安全 要 求 ,为 政府 数据 质量 治理 提供 
有 效 的 法 律 保障 。 
3.1.3 修订 与 完善 现 有 的 《科学 数据 管理 办 法 》 等 法 
规 或 规章 ,为 科学 数据 质量 治理 提供 有 效 的 行动 指南 
目前 我 国 已 经 出 全 与 科学 数据 管理 相关 的 多 项 法 
规 或 规章 ( 见 表 2) ,它们 虽然 都 提 及 到 科学 数据 质量 


及 其 管理 ,但 是 除 《 科 技 基础 性 工作 专项 项 目 科 学 数据 
汇 交 管理 办 法 (试行 )》 以 外 ,其 他 往往 在 如 何 确保 科 
学 数据 质量 方面 缺少 实 操 内 容 。 我 国 已 经 颁布 《信息 
技术 数据 质量 评价 指标 》( GBAT36344 - 2018 ) 国家 标 
准 ,确立 了 数据 质量 应 该 满足 规范 性 完整 性 、 准 确 性 、 
一 致 性 时效 性 .可 访问 性 的 要 求 。 如 何 通过 执行 该 标 
准 并 由 此 提升 科学 数据 质量 ,最 有 效 的 方法 是 把 数据 质 
量 要 求 写 入 修订 的 《科学 数据 管理 办 法 》, 或 者 制定 “ 科 
学 数据 质量 管理 细则 ” ,明确 利益 相关 者 在 科学 数据 质 
量 治理 中 的 权利 与 义务 ,明确 科学 数据 质量 管理 与 监督 
流程 ,为 科学 数据 质量 治理 提供 有 效 的 行动 指南 。 


表 2 与 科学 数据 质量 管理 相关 的 国内 法 规 或 规章 
法 规 或 规章 名 称 颁布 者 颁布 时 间 与 科学 数据 质量 管理 相关 的 核心 内 容 
习 科学 数据 管理 办 法 》[4] 国务 院 办 公 厅 2018 年 3 月 17 日 。 (1) 有 关 科研 院 所 ,高 等 院 校 和 企业 等 法 人 单位 按照 有 关 标准 规范 进行 科学 数 
~ 据 采 集 生产 ,加工 整理 和 长 期 保存 ,确保 数据 质量 ; 
Co (2) 法 人 单位 应 建立 科学 数据 质量 控制 体系 ,保证 数据 的 准确 性 和 可 用 性 
展 行动 岗 国务 院 2015 年 8 月 31 日 。 推进 数据 采集 政府 数据 开放 .数据 质量 等 关键 共性 标准 的 制定 和 实施 
网 到 据 产 业 发 展 规划 工业 和 信息 化 部 ”2016 年 12 月 18 日 (1) 开展 数据 开放 共享 产品 评价 .数据 质量 ,数据 安全 等 关键 标准 的 试验 验证 
6 -2020 年 )》[65] 和 符合 性 检测 
< (2) 推 动 制定 公共 信息 资源 保护 和 开放 的 制度 性 文件 以 及 政府 信息 资源 管理 
SO 办 法 ,逐步 扩大 开放 数据 的 范围 ,提高 开放 数据 质量 
(入 示 健康 医疗 大 数据 标 。 。 国家 卫生 健康 。 2018 年 7 月 12 日 责任 单位 采集 健康 医疗 大 数据 ,应 当 严 格 执行 国家 和 行业 相关 标准 和 程序 , 符 
安全 和 服务 管理 办 法 委员 会 合 业务 应 用 技术 标准 和 管理 规范 ,保证 服务 和 管理 对 象 在 本 单位 信息 系统 中 身 
人) 四 份 标识 唯一 基本 数据 项 一 致 ,所 采集 的 信息 应 当 严格 实行 信息 复核 终审 程序 ， 
QQ 做 好 数据 质量 管理 
《月球 与 深 空 探测 工程 科 ”国防 科 工 局 与 2016 年 9 月 12 日 航天 器 发 回 并 经 预 处 理 的 数据 分 为 0.1 .2 三 级 
学 玫 据 管 理 办 法 )@] 国家 航天 局 
技 基础 性 工作 专项 项 ”科技 部 基础 研究 司 和 。 2014 年 5 月 13 日 。 (1) 项 目 依托 部 门 相关 单位 负责 组 织 本 部 门 项 目的 科学 数据 整理 工作 ,确保 数 
| 学 数据 汇 交 管理 办 法 。 科研 条 件 与 财务 司 据 质量 ; 
试行 )》[68] (2) 项 目 承担 单位 负责 项 目 科学 数据 的 整理 和 汇 交 ,需要 确保 项 目 数据 的 完整 
i 性 和 质量 ; 
一 (3) 项 目 数据 汇 交 方案 内 容 应 包括 :项 目 基 本 信息 .科学 数据 集 ( 库 ) 名称 及 主 
O 要 内 容 . 科 学 数据 类 型 .科学 数据 格式 .保密 级 别 . 保 护 期 限 、 共 享 方式 .数据 质 
量 承 诺 书 .相关 软件 工具 等 ; 


3.2 组织 管理 方面 的 治理 对 策 
许多 科学 数据 开放 共享 中 的 数据 质量 问题 ,如 数 
据 输入 错误 .数据 更 新 错误 数据 不 完整 .数据 不 一 致 、 
数据 及 时 性 差 等 ,都 与 组 织 管理 不 有 有 关 。 因 此 ,需要 
从 组 织 管理 方面 采取 有 效 的 治理 措施 ,主要 包括 如 下 
3 方面: 
3.2.1 制定 科学 数据 质量 战略 ,明确 科学 数据 质量 治 
理 重点 与 方向 

科学 数据 质量 战略 是 机 构 对 科学 数据 质量 愿景 、 
目标 、 任 务 以 及 相关 的 数据 质量 管理 流程 活动 与 人 员 
的 规划 。 科 学 数据 质量 战略 应 该 :中 确立 机 构 科 学 数 
据 质量 的 愿景 与 目标 ,明确 科学 数据 质量 管理 与 质量 


(4) 


科学 数据 管理 机 构 在 收 到 项 目 汇 交 科 学 数据 后 ,应 在 一 个 半月 内 组 织 完 成 


数据 测试 ,质量 审查 和 验收 工作 


治理 的 重点 与 方向 ;@@ 确 定 科学 数据 质量 的 框架 、 维 度 
与 评价 指标 ,制定 科学 数据 质量 测评 与 治理 的 标准 ;G@) 
明确 科学 数据 质量 生命 周期 管理 ,包括 正规 地 识别 、 记 
录 检查 验证 和 评价 科学 数据 质量 的 方法 与 程序 ;中 
明确 科学 数据 质量 治理 的 奖 罚 机 制 , 打 造 积 极 高 效 的 
数据 治理 组 织 文 化 。 一 个 组 织 或 机 构 只 有 制定 合理 的 
科学 数据 质量 战略 ,才能 把 握 数 据 质量 治理 的 重点 与 
方向 ,助力 数据 质量 治理 的 实施 。 
3.2.2 建立 健全 科学 数据 质量 治理 结构 ,明确 治理 主 
体 的 职责 与 作用 

科学 数据 质量 治理 结构 可 以 是 一 种 四 层 模 型 ,如 
2 所 示 : 


16 


ChinaXiv 合 作 期 刊 


盛 小 平 ， 田 婧 ,向 桂林 . 科学 数据 开放 共享 中 的 数据 质量 治理 研究 [J]. 图 书 情报 工作 ,2020 ,64(22) :11 -24. 


CD0 与 数据 质量 治理 委员 会 


数据 质量 指导 / 协调 委员 会 


y + vy 


数据 标准 / 数据 质量 数据 质量 
元 数据 咨询 组 | | 技术 咨询 组 | | 认证 审核 组 
数据 || 数据 | | 数据 || 数据 | | 烽 据 
管家 || 管家 | | 管家 | 管家 | | 锋 案 


2 机构 科学 数据 质量 治理 结构 


(1) CD0O 与 数据 质量 治理 委员 会 。 在 此 模型 中 ， 
处 于 治理 结构 最 高 层 的 是 CDO 与 数据 质量 治理 委员 
会 。 其 中 ,CDO 主要 负责 '* ;@ 全 生命 周期 的 数据 管 
理 ;@ 与 机 构 内 负责 使 用 .保护 ,传播 和 生产 数据 的 任 
合 大 员 进 行 协调 ,以 确保 满足 机 构 的 数据 需要 ;@@ 管 理 
机 往 的 数据 资产 ,包括 数据 格式 的 标准 化 数据 资产 的 
共 襄 与 依法 公开 ;@ 支 持 机 构 绩效 改进 人 员 .评价 人 员 

S 玉 数据 来 履行 职能 ;@@ 在 切实 可 行 的 范围 内 ,确保 机 
构 驯 据 符合 数据 管理 最 佳 实践 ,最 大 限度 地 使 用 机 构 
内 的 数据 ;@ 让 机 构 雇员 、 公 众 和 承包 商 使 用 公共 数据 
颖 训 , 并 豆 盛 采取 合作 方式 改进 数据 使 用 ;@ 识 别 质量 
获 通 措施 需求 ,定期 报告 数据 质量 改进 情况 ;@ 审 查 机 
梅 节 础 设施 对 数据 资产 易 用 性 的 影响 ,并 与 机 构 首 席 
信息 官 协调 改善 这 种 基础 设施 ;@ 规 划 与 主持 数据 质 
量 深 理 委员 会 工作 。 数 据 质量 治理 委员 会 指导 和 监督 
妆 沁 质量 活动 ,主要 负责 :制定 机 构 数据 质量 治理 政 
策 5 省 提供 战略 指导 ;@ 审 查 机 构 数据 政策 ,指定 工作 
组 葡 业 务 规则 转换 为 数据 规则 ;@ 批 准 机 构 数 据 质量 
政 锯 和 流程 ;@ 制 定 和 维护 数据 质量 标准 ;加 审查 数据 
质量 实践 和 流程 的 建议 ;@ 签 署 数据 质量 认证 和 审核 ; 
四 设置 数据 质量 优先 等 级 ,监测 并 报告 绩效 ;@ 推 荐 与 
监督 CD0。 

(2) 数 据 质量 指导 /协调 委员 会 。 数 据 质 量 指导 / 
协调 委员 会 是 在 数据 质量 治理 委员 会 的 指导 下 开展 工 
作 , 主 要 负责 :@ 酌 情调 整数 据 质 量 治理 结构 中 的 
工作 组 ,以 确保 数据 质量 期 望 持续 得 到 满足 ;@ 推 荐 一 
些 合适 人 员 加 入 质量 治理 工作 组 或 数据 质量 指导 委员 
会 ,协同 数据 质量 治理 委员 会 监督 CDO 的 工作 ;@ 监 
督 数据 标准 咨询 组 有 关 数 据 质量 的 工作 ;@ 建 议 数据 
质量 治理 委员 会 批准 出 版 数据 质量 治理 报告 ;G@) 向 数 
据 质量 治理 委员 会 推荐 数据 质量 标准 以 获得 最 终 批 
准 ;@ 建 议 数据 质量 治理 委员 会 批准 认证 和 审核 ;@ 引 
导 宣传 和 推进 已 开发 的 数据 质量 实践 与 流程 ;@ 提 名 
数据 管家 (data steward) ;@ 参 加 定期 会 议 , 提 供 进度 报 


告 与 审核 状态 ,讨论 和 审查 数据 质量 活动 的 总 体 方向 ; 
@ 参 与 并 联系 外 部 标准 制定 机 构 。 

(3) 数 据 标准 /元 数据 咨询 组 、 数 据 质量 技术 咨询 
组 和 数据 质量 认证 审核 组 。 数 据 标准 /元 数据 咨询 组 
负责 监督 各 种 数据 标准 和 元 数据 活动 ,并 编制 和 维护 
元 数据 和 数据 标准 。 具 体 来 说 ,数据 标准 /元 数据 咨询 
组 负责 :QD 促进 数据 标准 活动 ; 忆 提 供 有 关 数 据 标准 活 
动 的 最 新 报告 ;@@ 管 理 数据 标准 指南 使 用 说 明文 件 的 
编制 ;由 提供 数据 与 元 数据 质量 标准 的 培训 和 知识 传 
递 ; 台 参与 政府 或 行业 的 数据 /元 数据 标准 制定 机 构 ， 
执行 最 新 的 数据 /元 数据 标准 ;@@ 开 发 符合 数据 标准 的 
数据 质量 实践 ,为 数据 标准 实践 提供 指导 "”。 

数据 质量 技术 咨询 组 由 负责 数据 质量 活动 技术 方 
面 的 成 员 组 成 ,其 职责 主要 是 :中 向 数据 质量 指导 / 协 
调 委员 会 报告 ,并 向 委员 会 提供 数据 质量 技术 咨询 ;@) 
更 新 和 维护 所 有 数据 质量 技术 规范 ;外 提供 有 关 数 据 
质量 的 技术 和 架构 问题 的 指导 ;个 监督 数据 质量 技术 
的 要 求 和 获取 过 程 。 

数据 质量 认证 审核 组 负责 所 有 工作 组 的 认证 和 审 
核 ,包括 制定 并 发 布 正式 的 认证 标准 和 流程 ,以 审核 数 
据 质量 政策 的 符合 性 1。 

(4) 数 据 管家 。 数 据 管家 是 工作 组 的 成 员 , 主 要 
负责 ” :@ 收 集 、 核 对 和 分 类 数据 问题 , 与 用 户 和 本 机 
构 员工 就 数据 质量 问题 进行 沟通 ;@) 管 理 元 数据 ;@) 参 
与 数据 质量 标准 的 制定 工作 ;中 维护 数据 ,包括 制定 数 
据 定期 更 新 计划 ,保证 数据 资源 是 可 用 的 ,处 理 数据 老 
化 或 保留 问题 等 ;3 监督 数据 质量 ;(@ 验 证 数据 ;中 高 
效 传播 参考 数据 或 信息 ;@ 管 理 数据 源 与 业务 规则 , 包 
括 管理 参考 信息 源 ,记录 所 有 元 数据 、 相 关 业 务 规则 、 
数据 用 户 与 使 用 方式 ;@@ 管 理 数据 生命 周期 ,在 整个 数 
据 生命 周期 内 解决 与 数据 使 用 和 可 用 性 有 关 的 任何 问 


题 。 


通过 建立 上 述 数据 质量 治理 结构 和 明确 治理 主体 
的 职责 ,可 以 确保 数据 质量 治理 在 机 构 范 围 内 得 到 所 
有 部 门 与 员工 的 通力 合作 与 广泛 参与 ,从 而 确实 提升 
科学 数据 质量 治理 水 平 。 
3.2.3 制定 科学 数据 质量 治理 计划 ,明确 科学 数据 质 
量 治理 路 径 

在 实施 科学 数据 开放 共享 过 程 中 ,机 构 既 要 制定 
科学 数据 管理 计划 ,也 要 制定 科学 数据 质量 治理 计划 ， 
使 两 者 有 效 融 合 起 来 。 科 学 数据 质量 治理 计划 是 对 科 
学 数据 质量 治理 目标 任务、 活动 .路径 与 方法 的 规划 
与 设计 。 其 中 ,最 重要 的 工作 是 评估 科学 数据 质量 现 
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状 ,量化 科学 数据 质量 的 影响 ,确立 科学 数据 质量 治理 
路 径 ,实施 科学 数据 的 清理 ,修正 、 综 合 .监测 和 报告 。 
确立 科学 数据 质量 治理 路 径 是 实施 科学 数据 质量 治理 
的 重要 保证 。 一 般 来 说 ,机 构 科 学 数据 质量 治理 路 径 
主要 包括 如 下 10 个 环节 :识别 机 构 数据 质量 目标 ， 
明确 机 构 数 据 质量 治理 领域 .重点 与 方向 ;加 收集 、 纺 
译 和 分 析 数 据 质量 环境 信息 ,设计 数据 采集 和 评估 计 
划 ;@ 评 估 数 据 质量 ,包括 数据 的 准确 性 ,完整 性 ,一致 
性 .及 时 性 ,可靠 性 .关联 性 .可 访问 性 .开放 性 评 佑 ;@ 
评估 业务 影响 :使 用 各 种 技术 ,确定 劣质 数据 对 业务 的 
影响 ,为 发 现 根本 原因 、 所 需 的 数据 修正 提供 基础 ;@ 
确定 根本 原因 :识别 和 优先 考虑 引发 数据 质量 问题 的 
真正 原因 ,制定 解决 这 些 问题 的 具体 建议 ;@ 制 定 改进 
计划 :确定 具体 的 行动 建议 ,根据 建议 制定 和 执行 改进 
计 世 ;防止 未 来 的 数据 错误 :实施 处 理 数据 质量 问题 
根 杰 原 因 的 解决 方案 ;@ 更 正当 前 数据 错误 ;@ 实 施 控 


解 : 摔 控 、 验 证 和 维持 所 实施 的 数据 质量 改进 ;@ 四 沟通 
行 劲 和 结果 :记录 和 交流 数据 质量 测试 结果 .所 做 的 数 
据 原 量 改进 以 及 这 些 改 进 的 结果 "1 。 采 用 上 述 治理 
路 名 ,有 助 于 使 数据 质量 治理 理念 转化 为 实际 行动 , 提 
高 数据 质量 治理 效率 。 
3 人 CD 技术 与 平台 方面 的 治理 对 策 
信息 技术 与 科学 数据 共享 平台 能 够 显著 影响 科学 
数据 质量 ,并 为 解决 科学 数据 开放 共享 中 的 数据 质量 
问题 提供 方案 .模型 .标准 ,接口 等 。 目 前 我 国 已 经 建 
成 cE8 个 专门 的 国家 科学 数据 共享 平台 和 其 他 一 系列 
国家 科技 资源 共享 服务 平台 ,为 科学 数据 开放 共享 昔 
年 鸭 坚 实 的 设施 基础 。 为 了 解决 如 今 科学 数据 开放 共 
享 中 的 数据 质量 问题 , 仍 需 采取 一 些 有 效 的 数据 治理 
对 策 。 这 主要 包括 : 
3.3.1 ”把 数据 剖析 嵌入 科学 数据 质量 管理 流程 ,增强 
数据 质量 治理 效果 

数据 剖析 ( data profiling) 是 审查 源 数据 与 理解 数 
据 结构 .内 容 和 相互 关系 以 及 识别 数据 项 目 潜力 的 过 
程 " ,也 是 对 数据 库 元 数据 (包括 列 和 记录 等 数据 源 
的 当前 状态 ) 进行 分 析 , 并 检查 合理 的 数据 位 置 . 数 据 
结构 和 数据 值 的 过 程 '” 。 这 些 元 数据 可 以 从 简单 的 
统计 数据 ,如 列 中 的 空 值 和 不 同 值 的 数量 以 及 列 的 数 
据 类 型 或 数据 值 的 最 常见 模式 ,到 复杂 的 值 间 和 列 间 
的 依赖 关系 "”"!。 数 据 剖析 包括 5 方面 工作 任务 :@ 
元 数据 分 析 : 发 气 元 数据 信息 ,如 数据 结构 ,数据 创建 
者 .创建 时 间 等 ;®@ 数 据 表示 分 析 : 查 找 数据 模式 ,包括 
文本 模式 .时 间 模 式 和 数字 模式 ,如 地 址 模式 日 期 模 


式 和 电话 模式 ;(3 数 据 内 容 分 析 : 审 查 数据 基础 信息 ， 
包括 数据 的 准确 性 、 及 时 性 \ 完 整 性 等 ;@ 数 据 集 分 析 : 
分 析 来 自 数 据 集中 的 数据 ,例如 统计 、 分 布 . 基 数 、 频 
率 \ 最 大 值 或 最 小 值 .平均 值 ` 宛 余 等 ;@ 数 据 逻辑 规则 
分 析 : 根 据 业 务 逻 辑 规 则 或 数据 的 逻辑 含义 `. 业 务 规则 
和 功能 依赖 关系 审查 数据 。 通 过 执行 上 述 任务 ,数据 
剖析 可 以 验证 用 户 结构 化 数据 , 半 结 构 化 数据 和 非 结 
构 化 数据 ,收集 数据 结构 数据 模式 、 统 计 信息 、 分 发 消 
息 ,审查 数据 治理 \ 数 据 管 理 、 数 据 迁移 和 数据 质量 控 
制 的 数据 属性 。 由 此 看 来 ,数据 剖析 具有 评估 数据 质 
量 和 改进 数据 质量 的 功能 ,可 以 发 现 数据 质量 问题 , 提 
高 数据 源 的 可 靠 性 和 完整 性 。 因 此 ,需要 把 数据 剖析 
租 入 数据 质量 管理 流程 。 这 种 科学 数据 质量 管理 流程 
主要 包括 如 下 8 个 步 又” :@ 收 集 与 分 析 数 据 和 元 数 
据 。 需 要 收集 科学 数据 与 科学 数据 库 的 物理 元 数据 。 
其 中 ,物理 元 数据 必须 包括 表 和 列 的 名 称 、 数 据 类 型 、 
域 信息 .约束 、 实 体 关 系 数据库 的 代码 定义 ,并 将 物理 
元 数据 与 数据 产品 如 表 列 名 称 、 数 据 类 型 等 进行 比较 
分 析 , 若 发 现 无 效 点 ,还 需 验 证 它们 。 色 选择 数据 剖析 
来 源 和 类 型 。 对 科学 数据 来 源 、 表 格 和 分 析 类 型 进行 
分 析 和 检查 。@® 对 元 数据 和 数据 源 进行 数据 剖析 。 分 
析 所 选 的 表 、 列 和 数据 源 。 通 过 对 数据 状态 的 分 析 , 可 
以 发 现 遗 漏 值 无 效 值 . 非 唯一 值 数据 和 结构 完整 性 
的 破坏 。 如 果 发 现 错误 或 无 效 数据 , 则 需要 进行 验证 。 
也 审查 和 报告 数据 剖析 。 与 科学 数据 业务 主管 综合 关 
据 剖 析 和 审查 结果 。 业 务 主管 需要 确认 使 用 数据 剖析 
得 到 的 无 效 数 据 和 错误 状态 。 通 过 与 业务 主管 的 讨 
论 ,制定 修改 无 效 数据 和 错误 状态 的 业务 规则 。() 数 
据 抽 取 。 提 取 无 效 或 错误 数据 ,并 转换 或 清除 这 些 数 
据 , 如 转换 数据 类 型 .代码 定义 ,数据 格式 等 ,或 清除 表 
名 、 列 名 \ 无 效 数据 、 空 值 键 数据 等 。@) 数 据 转换 。 根 
据 业 务 规则 或 质量 管理 程序 转换 数据 。(O 数 据 清 理 。 
业务 主管 动手 清理 数据 ,并 对 无 效 数据 进行 修改 以 保 
证 科学 数据 的 可 靠 性 。@ 数 据 加 载 。 将 经 过 转换 和 清 
理 的 数据 加 载 到 数据 库 中 ,以 便 在 机 构 内 部 或 跨 机 构 
之 间 迁 移 ,交换 与 共享 科学 数据 。 这 种 添加 了 数据 剖 
析 技 术 的 数据 质量 管理 流程 ,可 以 发 现 容易 出 错 的 地 
方 ,将 异常 数据 与 已 检查 的 元 数据 和 数据 源 区 分 开 来 ， 
清理 与 修正 错误 数据 ,实现 数据 质量 治理 的 目的 。 
3.3.2 实施 科学 数据 质量 审计 , 明确 数据 质量 治理 的 
重点 领域 

科学 数据 质量 审计 是 基于 科学 数据 质量 标准 ,对 
科学 数据 的 各 种 属性 是 否 达 到 标准 要 求 以 及 存在 哪些 
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盛 小 平 ， 田 婧 ,向 桂林 .科学 数据 开放 共享 中 的 数据 质量 治理 研究 [J]. 图 书 情报 工作 ,2020 ,64(22) :11 -24. 


质量 问题 的 检查 与 评估 。 从 理论 上 讲 , 科 学 数据 的 准 
确 性 、 完 整 性 一致 性 ` 及 时 性 .可靠 性 .关联 性 、 可 访问 
性 开放 性 越 高 越 好 ,但 在 开放 共享 实践 中 确保 高 品质 
科学 数据 并 非 易 事 。 这 时 ,建立 科学 数据 质量 清单 , 实 
施 科学 数据 质量 审计 ,是 发 现 科学 数据 开放 共享 中 的 
数据 质量 问题 的 最 有 效 办 法 。 这 种 科学 数据 质量 清单 
需要 禾 盖 开放 共享 科学 数据 的 8 种 属性 见 表 3, 且 按 5 
分 制 (0,1,2,3,4) 来 评估 科学 数据 属性 的 得 分 ,其 中 ,4 


分 表示 得 到 非常 好 的 处 理 ( 即 具有 最 高 的 质量 ) ;3 分 
表示 虽 得 到 处 理 ,但 仍 需 改 进 ;2 分 表示 得 到 部 分 处 
理 ,需要 很 大 的 改进 ;1 分 表示 根本 没有 处 理 ;0 分 表示 
完全 不 适用 。 数 据 专 业 人 员 可 以 利用 这 种 数据 质量 清 
单 ,开展 科学 数据 质量 审计 ,由 此 发 现 所 在 机 构 的 科学 
数据 存在 哪些 质量 缺陷 以 及 需要 进行 何 种 层次 的 质量 
改进 ,从 而 明确 科学 数据 质量 治理 的 重点 领域 与 核心 
工作 ,更 好 地 促进 科学 数据 质量 治理 的 实施 。 


表 3 开放 共享 的 科学 数据 质量 清单 


准确 性 评分 一 致 性 评分 放 可 访问 性 评分 
数据 内 容 准确 数据 内 容 一 致 数据 是 开放 共享 的 
数据 类 型 准确 数据 结构 一 致 可 以 访问 原始 数据 
数据 语法 准确 数据 类 型 -至 数据 可 供 检索 
数据 引用 准确 数据 标准 一 到 机 器 可 读 格式 
5 数据 无 污染 数据 格式 一 到 数据 软件 兼容 
CO。 数据 无 阵 片 化 数据 注释 一致 数据 可 进行 开放 验证 
< 赴 可 靠 性 评分 完整 性 评分 关联 性 评分 
人 数据 来 源 可 千 数据 质量 信息 完整 满足 研究 的 需要 
= 数据 内 容 可 靠 数据 内 容 完整 数据 已 链接 
5 数据 位 置 明确 数据 值 完整 数据 链接 正确 
全 数据 是 安全 的 数据 引用 完整 数据 链接 可 靠 
CD 数据 是 可 验证 的 元 数据 完整 
CN 及 时 性 评分 
人 效 据 是 最 新 可 用 的 
Ngyk 和 后 人 报告 
> 数据 及 时 更 新 


: 关 构建 关联 开放 数据 ,增强 科学 数据 的 关联 性 、 
开 煞 可 访问 性 

_ 斧 不 同 于 一 般 的 开放 数据 ,关联 开放 数据 需 满足 5 
种 狠 求 ,在 网 络 上 可 用 ,提供 的 任何 格式 数据 都 
是 开放 许可 的 ;加 发 布 机 器 可 读 的 结构 化 数据 ;@ 提 供 
非 专 有 格式 ;@ 利 用 W3C 中 的 开放 标准 ,如 资源 描述 
框架 (RDF) 和 查询 语言 Sparql 等 通过 统一 资源 标识 符 
(URI) 来 识别 事物 ;@ 将 数据 链接 到 其 他 数据 集 以 提 
供 上 下 文 关系 。 

由 于 具有 上 述 特 性 ,关联 开放 数据 成 为 实现 开放 
数据 资源 整合 的 新 技术 与 新 方法 ,能 够 摆脱 现 有 Web 
网 络 信息 的 粗 粒度 与 语义 缺失 的 现象 ”。 它 通过 发 
布 和 链接 结构 化 的 数据 使 分 散 异 构 的 数据 实现 语义 关 
联 和 集成 ,可 以 提高 开放 科学 数据 质量 。 例 如 ,Spring- 
er Nature 推出 了 一 个 学 术 领 域 的 关联 开放 数据 平 


全 
口 


Springer Nature SciGraph。 它 集成 Springer Na- 
ture 及 其 学 术 领 域 合 作 伙伴 的 数据 资源 ,如 相关 资助 
机 构 .研究 机 构 .科研 项 目 、 会 议 . 出 版 物 等 各 个 研究 领 


域 的 信息 ,同时 不 断 从 各 种 数字 资源 如 数字 期 刊 、 文 
章 图书 和 章节 专利 会议. 引用 和 参考 链接 网 络 等 获 
取 更 多 的 元 数据 ,能 够 提供 更 加 丰富 的 语义 描述 ,让 更 
多 来 自 可 靠 来 源 的 高 质量 信息 可 被 发 现 和 利用 ,从 而 
可 以 帮助 科研 共同 体 充 分 利用 开放 科学 数据 ,促进 学 
术 交 流 与 创新 ” 。 因 此 ,通过 构建 关联 开放 数据 与 拱 
建 关 联 开放 数据 网 络 ,提高 语义 网 中 的 数据 集 质量 、 链 
接 质量 和 模式 质量 ,就 可 获得 科学 数据 质量 保证 ” ， 
增强 科学 数据 的 关联 性 、 开 放 性 、 可 访问 性 和 互 操作 
性 。 
3.4 利益 相关 者 方面 的 治理 对 策 

从 利益 相关 者 角度 来 看 ,科学 数据 质量 治理 对 策 
主要 包括 如 下 两 方面 : 
3.4.1 明确 不 同 利益 相关 者 的 科学 数据 质量 治理 职 
责 与 作用 

目前 缺少 相关 法 规 或 规章 对 利益 相关 者 (包括 政 
府 、 研 究 人 员 研究 机 构 .数据 中 心 .图 书 情报 机 构 、 资 
助 机 构 .出 版 社 数据 专业 人 员 等 ) 在 科学 数据 开放 共 


19 


团 定 情报 三 作 


第 64 卷 第 22 期 2020 年 11 月 


ChinaXiv 合 作 期 刊 


享 中 的 数据 质量 治理 职责 进行 有 效 界定 ,使 数据 质量 
治理 收效 其 微 。 因 此 ,十 分 有 必要 明确 不 同 利益 相关 
者 的 数据 质量 治理 职责 与 作用 。 

(1) 政 府 。 笔 者 认为 ,政府 是 实施 科学 数据 质量 
治理 不 可 或 缺 的 重要 因素 。 一 方面 ,政府 是 科学 数据 
管理 政策 与 法 规 的 制定 者 ,可 以 为 科学 数据 质量 治理 


严重 科研 不 端 行为 ,将 按 院 有 关 制 度 进 行 学 术 调 查 并 
给 予 相应 学 术 处 理 “  。 这 些 条 款 芮 定 了 中 国 科学 院 
科学 数据 质量 治理 的 基础 ,值得 其 他 机 构 借 鉴 。 

(3) 数 据 中 心 与 图 书 情报 机 构 。 数 据 中 心 与 图 书 
情报 机 构 作 为 科学 数据 的 主要 组 织 者 、 发 布 者 、 传 播 
者 ,管理 者 与 服务 提供 者 ,在 科学 数据 质量 治理 中 具有 


创建 良好 的 法 制 环境 与 政策 环境 ; 另 一 方面 ,一 些 政府 
机 构 也 是 科学 数据 的 生产 者 .出 版 者 \ 传 播 者 和 管理 
者 ,政府 机 构 提供 的 科学 数据 质量 的 高 低 直 接 影 响 公 
众 对 这 些 科学 数据 利用 效果 的 好 坏 , 甚 至 影响 国家 大 
数据 战略 的 实施 。 因 此 ,应 该 充分 发 挥 政府 在 制定 科 
学 数据 管理 与 质量 治理 政策 与 法 规 上 的 主导 作用 , 通 
过 建立 健全 我 国 科学 数据 管理 与 质量 治理 政策 与 法 规 
来 保证 科学 数据 质量 治理 的 有 效 实施 。 

2) 研 究 人 员 和 研究 机 构 。 研 究 人 员 既 是 科学 数 
据 的 主要 生产 者 与 使 用 者 ,也 是 科学 数据 质量 治理 的 
中 如 力量 。 一 方面 ,研究 人 员 应 该 克服 科学 数据 开放 
共通 的 认 知 谱 碍 ,打破 “不 愿 开放 和 不 敢 开 放 ” 的 禁 
钢 s 积 极 创建 共享 与 利用 有 价值 的 科学 数据 ; 另 一 方 
也 研究 人 员 应 该 确保 开放 科学 数据 的 准确 性 、 完 束 
性 本 致 性 及 时 性 可 靠 性 .关联 性 、 可 访问 性 与 开放 
性 :提供 科学 数据 质量 保证 ,使 自己 成 为 科学 数据 质量 
清 章 的 践 行者 与 中 坚 力量 。 

.全 研究 机 构 作为 科学 数据 的 生产 者 .管理 者 、 传 播 者 
与 征用 者 ,在 数据 质量 治理 中 具有 独特 的 作用 。 研 究 
机 物 不 仅 要 为 科学 数据 开放 共享 创造 有 利 的 内 部 环 
境 = 开 发 支撑 科学 数据 开放 共享 的 基础 设施 ,提供 机 构 
开赴 科学 数据 的 长 期 保存 与 访问 "” ,而 且 需 要 制定 本 
机 构 科学 数据 开放 共享 政策 与 数据 质量 标准 ,建立 科 
学 数据 质量 治理 结构 与 规则 ,明确 机 构 科 学 数据 质量 
治理 路 径 ,增强 机 构 科 学 数据 质量 治理 的 内 生 力 量 。 
在 此 方面 《中 国 科学 院 科学 数据 管理 与 开放 共享 办 法 
(试行 )》 起 到 了 示范 作用 。 该 办 法 中 的 许多 条 款 明 确 
了 研究 机 构 的 科学 数据 质量 治理 责任 与 作用 ,比如 :第 
7 条 规定 中 国 科学 院 网 络 安全 和 信息 化 领导 小 组 办 公 
室 要 负责 全 院 科学 数据 管理 与 开放 共享 的 标准 化 工 
作 ;第 9 条 规定 院 属 法 人 单位 要 建立 健全 科学 数据 管 
理 与 开放 共享 制度 和 科学 数据 质量 控制 体系 ;第 19 条 
强调 科学 数据 应 按照 分 等 级 、 可 发 现 .可 访问 ,可 重用 
的 原则 ,适时 向 院内 外 用 户 开放 共享 ;第 23 条 规定 
国 科 学 院 科 学 数据 中 心 要 开展 科学 数据 加 工 与 质量 控 
制 工 作 , 形 成 分 级 分 类 开放 共享 的 目录 清单 ;第 30 条 


重要 的 地 位 。 他 们 应 该 制定 科学 数据 开放 共享 政策 ， 
明确 科学 数据 质量 技术 标准 ,建立 健全 科学 数据 质量 
管理 生命 周期 与 质量 管理 流程 ,动态 评估 与 监管 本 机 
构 组 织 .收藏 与 发 布 的 科学 数据 质量 ,履行 科学 数据 质 
量 分 析 师 ,评价 者 与 监管 者 或 控制 者 角色 ,为 科学 数据 
质量 治理 提供 支撑 与 保障 。 

(4) 资 助 机 构 。 资 助 机 构 在 科学 数据 质量 治理 方 
面具 有 激励 与 引导 作用 ,不 仅 要 求 申请 者 在 申请 资助 
项 目 时 需要 提交 其 科学 数据 管理 计划 ,而 且 明 确 规 定 
科学 数据 的 质量 要 求 与 问 责 ,并 把 这 些 内 容 写 入 资助 
协议 中 ,这 样 既 能 约束 申请 者 恪守 数据 质量 关 , 也 能 发 
挥 资助 者 的 监督 作用 。 例 如 ,美国 国家 科学 基金 会 规 
定 :申请 人 在 提交 项 目 申请 书 必须 包含 一 份 “数据 管理 
计划 ” ,详细 说 明 ” :GD 项 目 过 程 中 需要 制作 的 数据 类 
型 .样本 实物、 软件 .课程 资料 和 其 他 资料 ;@ 用 于 数 
据 和 元 数据 格式 与 内 容 的 标准 (如 果 现 有 标准 缺失 或 
被 认为 不 足 , 应 将 其 与 任何 建议 的 解决 方案 或 补救 措 
施 一 起 记录 在 案 ) ;@ 访 问 和 共享 政策 ,包括 适当 保护 
隐私 、 机 密 性 、 安 全 性 、 知 识 产 权 、 其 他 权利 或 要 求 的 条 
款 ;关于 重复 使 用 、 重 新 分 配 和 衍生 品 制作 的 政策 和 
规定 ;@ 数 据 、 样 本 和 其 他 研究 产品 的 存档 与 保存 访问 
的 计划 。 这 种 资助 政策 有 助 于 实现 科学 数据 质量 治 
理 。 

(5) 出 版 社 。 出 版 社 是 科学 数据 的 主要 发 布 者 与 
传播 者 。 出 版 社 通过 建立 科学 数据 开放 出 版 规则 , 规 
范 科 学 数据 出 版 质量 要 求 ,严格 控制 科学 数据 的 出 版 
发 行 ,使 得 只 有 符合 科学 数据 质量 标准 的 数据 才能 发 
布 出 来 ,从 而 发 挥 其 作为 科学 数据 质量 监管 者 .守门 人 
的 作用 。 这 也 是 科学 数据 质量 治理 过 程 中 不 可 或 缺 的 
一 个 关键 环节 。 特 别 是 近年 来 ,部 分 国际 知名 出 版 商 
纷纷 推出 数据 期 刊 ,如 Springer-Nature 创办 的 Scientific 
Data、Wiley- Blackwell 创办 的 Geoscience Data Journal、 
Elsevier 创办 的 Data in Brief 等 , 均 要 求 作 者 对 发 表 的 
数据 集 进行 详细 描述 ,说明 数据 来 源 、 处 理 过 程 、 使 用 
的 软件 和 数据 文件 类 型 等 ,并 采用 严格 的 同行 评审 机 
制 和 数据 引用 政策 ,确保 论文 中 的 数据 质量 达到 较 高 


规定 对 于 伪造 , 自 改 、 剩 锚 、 抄 玲 、 重 复出 版 科学 数据 等 


水 平 。 
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(6) 数 据 专业 人 员 。 数 据 专业 人 员 主 要 包括 数据 
开发 者 ,数据 研究 者 .数据 创建 者 ,数据 管理 者 .数据 服 
务 提供 者 ,常见 的 称谓 有 数据 科学 家 、 首 席 数 据 官 交 
据 分 析 师 .数据库 架构 师 ,数据 可 视 化 专家 .数据 质量 
经 理 数据 馆 员 ,数据 管家 ,数据 安全 官 中 等 。 各 种 机 
构 应 该 设置 数据 专业 人 员 职 位 ,明确 其 在 科学 数据 管 
理 与 质量 治理 中 的 职责 ,包括 承担 科学 数据 质量 检查 、 
审核 评估、 修正 、 报 告 的 具体 工作 任务 ,并 赋予 其 管 
理 .控制 机 构 科学 数据 质量 的 权力 ,从 而 确保 开放 共享 
的 科学 数据 具有 较 高 的 质量 。 

3.4.2 ”建立 利益 相关 者 科学 数据 质量 协同 治理 机 制 

正 因为 众多 利益 相关 者 在 科学 数据 开放 共享 中 的 
数据 质量 治理 中 有 不 同 的 职责 与 作用 ,所 以 需要 建立 
利益 相关 者 科学 数据 质量 协同 治理 机 制 以 便 更 高 效 实 
用 颖 据 质量 治理 。 科 学 数据 质量 协同 治理 机 制 是 指 多 
元 洽 法 治理 主体 ( 如 政府 部 门 \ 各 种 机 构 、 公 众 等 ) 基 


益 相关 者 等 方面 。 针 对 科学 数据 开放 共享 中 的 各 种 数 
据 质量 问题 ,可 以 从 其 诱因 和 人 手 ,制定 有 效 的 数据 质量 
治理 对 策 , 包 括 :中 在 政策 法 规 方面 ,制定 4 数据 质量 
法 》 或 4 数据 质量 管理 条 例 》, 为 科学 数据 质量 治理 提 
共 专 门 的 法 律 支撑 ;制定 《开放 政府 数据 法 》 等 相关 法 
律 , 为 科学 数据 质量 治理 提供 有 效 的 法 律 依据 ;修订 与 
完善 现 有 的 《科学 数据 管理 办 法 》 等 法 规 或 规章 ,为 科 
学 数据 质量 治理 提供 有 效 的 行动 指南 。@ 在 组 织 管理 

方面 ,制定 科学 数据 质量 战略 ,明确 科学 数据 质量 治理 
重点 与 方向 ;建立 健全 科学 数据 质量 治理 结构 ,明确 治 
理 主体 的 职责 与 作用 ;制定 科学 数据 质量 治理 计划 , 明 
确 科 学 数据 质量 治理 路 径 。(3) 在 技术 与 平台 方面 ,把 
数据 剖析 肯 入 科学 数据 质量 管理 流程 ,增强 数据 质量 
治理 效果 ;实施 科学 数据 质量 审计 ,明确 数据 质量 治理 
的 重点 领域 ;构建 关联 开放 数据 ,增强 科学 数据 的 关联 
性 开放 性 与 可 访问 性 。@@ 在 利益 相关 者 方面 ,明确 不 


ei 


律 法 规 和 其 他 行为 规范 ,跨越 组 织 边界 ,通过 相互 
与 协同 米 解 决 科学 数据 质量 问题 和 获得 高 质量 数 
据 的 作用 机 理 与 运行 方式 。 协 同治 理 的 本 质 要 义 在 于 
打 正 不 同治 理 主体 之 问 的 层 导 隆 碍 ,利用 质量 治理 社 
8 国 络 中 节点 之 间 错 综 复杂 的 社会 关系 ,协同 处 理科 
美 丈 据 质量 问题 ,并 为 科学 数据 质量 提供 保障 。 实 施 
这 各 协同 } 台 理 机 制 的 关键 在 于 :外 通过 上 级 政府 部 门 
或 主管 机 构 .资助 机 构 对 科学 数据 质量 治理 的 顶层 设 
计生 制度 安排 ,包括 制定 相关 科学 数据 质量 治理 政策 、 
明确 不 同 利益 相关 者 在 科学 数据 质量 治理 中 的 职责 
等 为 科学 数据 质量 协同 治理 提供 政策 保障 ;加 通过 利 
用 河 理 主体 ( 即 质量 治理 社会 网 络 中 的 节点 ) 之 间 的 
各 种 社会 关系 (如 领导 .资助 .管理 .监督 .协同 .合作 
等 ) ,发 挥 治理 主体 联动 作用 ,协同 解决 单个 治理 主体 
无 法 处 理 的 科学 数据 质量 问题 ; 国 通过 建立 科学 数据 
质量 治理 的 利益 驱动 机 制 ,包括 建立 科学 数据 质量 治 
理 的 奖惩 机 制 、 信 誉 机 制 ,引导 和 促进 利益 相关 者 积极 
参与 科学 数据 质量 的 协同 治理 。 


4 结语 


数据 质量 是 科学 数据 开放 共享 必须 重视 的 一 个 关 
键 问题 。 一 方面 ,科学 数据 开放 共享 是 否 取得 成 功 在 
很 大 程度 上 依赖 于 高 质量 的 科学 数据 ; 另 一 方面 ,目前 
科学 数据 开放 共享 遇 到 了 一 些 数 据 质量 问题 ,如 科学 
数据 的 准确 性 .完整 性 .一致 性 及 时 性 可靠 性 .关联 
性 ` 开 放 可 访问 性 等 。 产 生 科 学 数据 质量 问题 的 根本 
原因 主要 来 自 于 政策 法 规 \ 组 织 管理 .技术 与 平台 、 利 


同 利益 相关 者 的 科学 数据 质量 治理 职责 与 作用 ,并 建 
立 利益 相关 者 科学 数据 质量 协同 治理 机 制 。 这 些 数据 
质量 治理 措施 将 有 效 解决 科学 数据 开放 共享 中 的 数据 
质量 问题 ,有 助 于 进一步 推动 科学 数据 的 开放 共享 和 
更 大 范围 内 的 开放 研究 与 开放 创新 。 
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Abstract: | Purpose/ significance | In order to promote the effective implementation of open sharing of scientific 
ata, this paper explores the data quality problems in open sharing of scientific data and its governance countermeas- 


Cays. | Method/ process | By means of normative analysis and causal analysis, this paper analyzed the data quality 


CHrbblems in open sharing of scientific data and the root causes of the problems, then constructd the governance model 


Zoopen sharing of scientific data, finally proposed four types of governance countermeasures from the perspective of 
Ghaucements. | Result/ conclusion | The problems of data quality in open sharing of scientific data involve the accu- 
J>y , Completeness, consistency, timeliness, reliability, relevance and open accessibility of scientific data. In order 
yesolve the problems of scientific data quality and further promote the implementation of open sharing of scientific da- 
countermeasures for scientific data quality governance can be formulated from four aspects of policies and regula- 


.fs organizational managements, technologies and platforms, and stakeholders. 
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